Search CORE

11 research outputs found

UD Gheg Pear Stories

Author: Ebert Christian Georg
Islamaj Artan
Kuqi Adrian
Plamada Magdalena
Sonnenhauser Barbara
Widmer Paul
Publication venue: Universal Dependencies
Publication date: 01/01/2022
Field of study

UD Gheg Pear Stories (GPS) contains renarrations of Wallace Chafe's Pear Stories video (pearstories.org) by heritage speakers of Gheg Albanian living in Switzerland and speakers from Prishtina

ZORA

Towards a Wikipedia-extracted alpine corpus

Author: Plamada Magdalena
Volk Martin
Publication venue
Publication date: 26/05/2012
Field of study

This paper describes a method for extracting parallel sentences from comparable texts. We present the main challenges in creating a German-French corpus for the Alpine domain. We demonstrate that it is difficult to use the Wikipedia categorization for the extraction of domain-specific articles from Wikipedia, therefore we introduce an alternative information retrieval approach. Sentence alignment algorithms were used to identify semantically equivalent sentences across the Wikipedia articles. Using this approach, we create a corpus of sentence-aligned Alpine texts, which is evaluated both manually and automatically. Results show that even a small collection of extracted texts (approximately 10000 sentence pairs) can partially improve the performance of a state-of-the-art statistical machine translation system. Thus, the approach is worth pursuing on a larger scale, as well as for other language pairs and domains

ZORA

Using parallel treebanks for machine translation evaluation

Author: Plamada Magdalena
Volk Martin
Publication venue: Edições Colibri
Publication date: 01/12/2012
Field of study

This paper presents a new method to evaluate machine translation (MT) systems against a parallel treebank. This approach examines specific linguistic phenomena rather than the overall performance of the system. We show that the evaluation accuracy can be increased by using word alignments extracted from a parallel treebank. We compare the performance of our statistical MT system with two other competitive systems with respect to a set of problematic linguistic structures for translation between German and French

ZORA

Mining for Domain-specific Parallel Text from Wikipedia

Author: Plamada Magdalena
Volk Martin
Publication venue: Association for Computational Linguistics
Publication date: 01/08/2013
Field of study

Previous attempts in extracting parallel data from Wikipedia were restricted by the monotonicity constraint of the alignment algorithm used for matching possible candidates. This paper proposes a method for exploiting Wikipedia articles without worrying about the position of the sentences in the text. The algorithm ranks the candidate sentence pairs by means of a customized metric, which combines different similarity criteria. Moreover, we limit the search space to a specific topical domain, since our final goal is to use the extracted data in a domain-specific Statistical Machine Translation (SMT) setting. The precision estimates show that the extracted sentence pairs are clearly semantically equivalent. The SMT experiments, however, show that the extracted data is not refined enough to improve a strong in-domain SMT system. Nevertheless, it is good enough to boost the performance of an out-of-domain system trained on sizable amounts of data.

CiteSeerX

ZORA

Pre-reordering for Statistical Machine Translation of Non-fictional Subtitles

Author: Linder Gion
Plamada Magdalena
Ströbel Phillip
Volk Martin
Publication venue: s.n.
Publication date: 01/05/2015
Field of study

This paper describes the challenges of building a Statistical Machine Translation (SMT) system for non-fictional subtitles. Since our experiments focus on a "difficult" translation direction (i.e. French-German), we investigate several methods to improve the translation performance. We also compare our in-house SMT systems (including domain adaptation and pre-reordering techniques) to other SMT services and show that pre-reordering alone significantly improves the baseline systems

ZORA

Dirt cheap web-scale parallel text from the Common Crawl

Author: Callison-Burch Chris
Koehn Philipp
Lopez Adam
Plamada Magdalena
Saint-Amand Herve
Smith Jason R
Publication venue: Association for Computational Linguistics
Publication date: 01/01/2013
Field of study

Parallel text is the fuel that drives modern machine translation systems. The Web is a comprehensive source of preexisting parallel text, but crawling the entire web is impossible for all but the largest companies. We bring web-scale parallel text to the masses by mining the Common Crawl, a public Web crawl hosted on Amazon 19s Elastic Cloud. Starting from nothing more than a set of common two-letter language codes, our open-source extension of the STRAND algorithm mined 32 terabytes of the crawl in just under a day, at a cost of about \$500. Our large-scale experiment uncovers large amounts of parallel text in dozens of language pairs across a variety of domains and genres, some previously unavailable in curated datasets. Even with minimal cleaning and filtering, the resulting data boosts translation performance across the board for five different language pairs in the news domain, and on open domain test sets we see improvements of up to 5 BLEU. We make our code and data available for other researchers seeking to mine this rich new data resource

CiteSeerX

ZORA

Gheg

Author: Ebert Christian
et al
Islamaj Artan
Kuqi Adrian
Plamada Magdalena
Sonnenhauser Barbara
Widmer Paul
Zeman Daniel T
Publication venue: Universal Dependencies Consortium
Publication date: 01/01/2022
Field of study

ZORA

Universal Dependencies 2.8.1

Author: Abrams Mitchell
Ackermann Elia
Aepli Noëmi
Aghaei Hamid
Agić Željko
Ahmadi Amir
Ahrenberg Lars
Ajede Chika Kennedy
Akkurt Salih Furkan
Aleksandravičiūtė Gabrielė
Alfina Ika
Algom Avner
Alzetta Chiara
Andersen Erik
Antonsen Lene
Aplonova Katya
Aquino Angelina
Aragon Carolina
Aranes Glyd
Aranzabe Maria Jesus
Arıcan Bilge Nas
Arnardóttir Þórunn
Arutie Gashaw
Arwidarasti Jessica Naraiswari
Asahara Masayuki
Aslan Deniz Baran
Asmazoğlu Cengiz
Ateyah Luma
Atmaca Furkan
Attia Mohammed
Atutxa Aitziber
Augustinus Liesbeth
Badmaeva Elena
Balasubramani Keerthana
Ballesteros Miguel
Banerjee Esha
Bank Sebastian
Barbu Mititelu Verginica
Barkarson Starkaður
Basile Rodolfo
Basmov Victoria
Batchelor Colin
Bauer John
Bedir Seyyit Talha
Belieni Juan
Ben Moshe Yifat
Bengoetxea Kepa
Berk Gözde
Berzak Yevgeni
Bhat Irshad Ahmad
Bhat Riyaz Ahmad
Biagetti Erica
Bick Eckhard
Bielinskienė Agnė
Bjarnadóttir Kristín
Blokland Rogier
Bobicev Victoria
Boizou Loïc
Borges Völker Emanuel
Bosco Cristina
Bouma Gosse
Bowman Sam
Boyd Adriane
Braggaar Anouck
Brokaitė Kristina
Burchardt Aljoscha
Börstell Carl
Candito Marie
Caron Bernard
Caron Gauthier
Cassidy Lauren
Castro Maria Clara
Cavalcanti Tatiana
Cebiroğlu Eryiğit Gülşen
Cecchini Flavio Massimiliano
Celano Giuseppe G. A.
Cesur Neslihan
Cetin Savas
Chalub Fabricio
Chamila Liyanage
Chauhan Shweta
Chi Ethan
Chika Taishi
Cho Yongseok
Choi Jinho
Chun Jayeol
Chung Juyeon
Cignarella Alessandra T.
Cinková Silvie
Collomb Aurélie
Connor Miriam
Corbetta Daniela
Courtin Marine
Cristescu Mihaela
Daniel Philemon
Davidson Elizabeth
de Alencar Leonel Figueiredo
de Laurentiis Martina
de Marneffe Marie-Catherine
de Paiva Valeria
de Souza Elvis
Dehouck Mathieu
Derin Mehmet Oguz
Di Nuovo Elisa
Diaz de Ilarraza Arantza
Dickerson Carly
Dinakaramani Arawinda
Dione Bamba
Dirix Peter
Dobrovoljc Kaja
Dozat Timothy
Droganova Kira
Dwivedi Puneet
Ebert Christian
Eckhoff Hanne
Eiche Sandra
Eli Marhaba
Elkahky Ali
Ephrem Binyam
Erina Olga
Erjavec Tomaž
Etienne Aline
Evelyn Wograine
Facundes Sidney
Farkas Richárd
Favero Federica
Ferdaousi Jannatul
Fernanda Marília
Fernandez Alcalde Hector
Foster Jennifer
Freitas Cláudia
Fujita Kazunori
Gajdošová Katarína
Galbraith Daniel
Gamba Federica
Garcia Marcos
Garza Sebastian
Gerardi Fabrício Ferraz
Gerdes Kim
Ginter Filip
Godoy Gustavo
Goenaga Iakes
Gojenola Koldo
Goldberg Yoav
González Saavedra Berta
Griciūtė Bernadeta
Grioni Matias
Grobol Loïc
Grūzītis Normunds
Guillaume Bruno
Guillot-Barbance Céline
Gärdenfors Moa
Gómez Guinovart Xavier
Gökırmak Memduh
Güngör Tunga
Habash Nizar
Hafsteinsson Hinrik
Hajič jr. Jan
Hajič Jan
Han Na-Rae
Hanifmuti Muhammad Yudistira
Harada Takahiro
Hardwick Sam
Harris Kim
Haug Dag
Heinecke Johannes
Hellwig Oliver
Hennig Felix
Hladká Barbora
Hlaváčová Jaroslava
Hociung Florinel
Hohle Petter
Huerta Mendez Marivel
Hwang Jena
Hà Mỹ Linh
Hämäläinen Mika
Ikeda Takumi
Ingason Anton Karl
Ion Radu
Irimia Elena
Ishola Ọlájídé
Islamaj Artan
Ito Kaoru
Jannat Siratun
Jelínek Tomáš
Jha Apoorva
Jiang Katharine
Johannsen Anders
Juutinen Markus
Jónsdóttir Hildur
Jørgensen Fredrik
Kaasen Andre
Kabaeva Nadezhda
Kahane Sylvain
Kanayama Hiroshi
Kanerva Jenna
Kara Neslihan
Karahóǧa Ritván
Katz Boris
Kayadelen Tolga
Kaşıkara Hüner
Kengatharaiyer Sarveswaran
Kenney Jessica
Kettnerová Václava
Kirchner Jesse
Klementieva Elena
Klyachko Elena
Kopacewicz Kamil
Korkiakangas Timo
Koshevoy Alexey
Kotsyba Natalia
Kovalevskaitė Jolanta
Krek Simon
Krishnamurthy Parameswari
Kuqi Adrian
Kuyrukçu Oğuzhan
Kuzgun Aslı
Kwak Sookyoung
Köhn Arne
Köksal Abdullatif
Köse Mehmet
Kübler Sandra
Laippala Veronika
Lam Lucia
Lambertino Lorenzo
Lando Tatiana
Larasati Septina Dian
Lavrentiev Alexei
Lee John
Lenci Alessandro
Lertpradit Saran
Leung Herman
Levina Maria
Li Cheuk Ying
Li Josie
Li Keying
Li Yixuan
Li Yuan
Lim KyungTae
Lima Padovani Bruna
Lindén Krister
Ljubešić Nikola
Loginova Olga
Lusito Stefano
Luthfi Andry
Luukko Mikko
Lyashevskaya Olga
Lynn Teresa
Lê Hồng Phương
Macketanz Vivien
Mahamdi Menel
Maillard Jean
Makarchuk Ilya
Makazhanov Aibek
Mandl Michael
Manning Christopher
Manurung Ruli
Mareček David
Marheinecke Katrin
Markantonatou Stella
Martins André
Martín Rodríguez Lorena
Martínez Alonso Héctor
Marşan Büşra
Matsuda Hiroshi
Matsumoto Yuji
Mazzei Alessandro
Mašek Jan
McDonald Ryan
McGuinness Sarah
Mendonça Gustavo
Merzhevich Tatiana
Miekka Niko
Mischenkova Karina
Misirpashayeva Margarita
Missilä Anna
Mititelu Cătălin
Mitrofan Maria
Miyao Yusuke
Mojiri Foroushani AmirHossein
Molnár Judit
Moloodi Amirsaeid
Montemagni Simonetta
More Amir
Moreno Romero Laura
Moretti Giovanni
Mori Keiko Sophie
Mori Shinsuke
Morioka Tomohiko
Moro Shigeki
Mortensen Bjartur
Moskalevskyi Bohdan
Muischnek Kadri
Munro Robert
Murawaki Yugo
Müürisep Kaili
Mărănduc Cătălina
Nainwani Pinkey
Nakhlé Mariam
Navarro Horñiacek Juan Ignacio
Nedoluzhko Anna
Nevaci Manuela
Nešpore-Bērzkalne Gunta
Nguyễn Thị Minh Huyền
Nguyễn Thị Lương
Nikaido Yoshihiro
Nikolaev Vitaly
Nitisaroj Rattima
Nivre Joakim
Nourian Alireza
Nurmi Hanna
Ojala Stina
Ojha Atul Kr.
Olúòkun Adédayọ̀
Omura Mai
Onwuegbuzia Emeka
Ordan Noam
Osenova Petya
Paccosi Teresa
Palmero Aprosio Alessio
Panova Anastasia
Park Hyunji Hayley
Partanen Niko
Pascual Elena
Passarotti Marco
Patejuk Agnieszka
Paulino-Passos Guilherme
Pedonese Giulia
Peljak-Łapińska Angelika
Peng Siyao
Perez Cenel-Augusto
Perkova Natalia
Perrier Guy
Petrov Slav
Petrova Daria
Peverelli Andrea
Phelan Jason
Piitulainen Jussi
Pintucci Rodrigo
Pirinen Tommi A
Pitler Emily
Plamada Magdalena
Plank Barbara
Poibeau Thierry
Ponomareva Larisa
Popel Martin
Pretkalniņa Lauma
Prokopidis Prokopis
Przepiórkowski Adam
Prévost Sophie
Pugh Robert
Puolakainen Tiina
Pyysalo Sampo
Qi Peng
Rademaker Alexandre
Rahoman Mizanur
Rama Taraka
Ramasamy Loganathan
Ramisch Carlos
Rashel Fam
Rasooli Mohammad Sadegh
Ravishankar Vinit
Real Livy
Rebeja Petru
Reddy Siva
Regnault Mathilde
Rehm Georg
Riabov Ivan
Rießler Michael
Rimkutė Erika
Rinaldi Larissa
Rituma Laura
Rizqiyah Putri
Rocha Luisa
Roksandic Ivan
Romanenko Mykhailo
Rosa Rudolf
Rovati Davide
Rozonoyer Ben
Roșca Valentin
Rudina Olga
Rueter Jack
Rääbis Andriela
Rögnvaldsson Eiríkur
Rúnarsson Kristján
Sadde Shoval
Safari Pegah
Sagot Benoît
Sahala Aleksi
Saleh Shadi
Salomoni Alessio
Samardžić Tanja
Samson Stephanie
Sanguinetti Manuela
Sanıyar Ezgi
Sartor Marta
Sasaki Mitsuya
Saulīte Baiba
Sawanakunanon Yanin
Saxena Shefali
Scannell Kevin
Scarlata Salvatore
Schneider Nathan
Schuster Sebastian
Schwartz Lane
Seddah Djamé
Seeker Wolfgang
Seraji Mojgan
Shahzadi Syeda
Shen Mo
Shimada Atsuko
Shirasu Hiroyuki
Shishkina Yana
Shohibussirri Muh
Shvedova Maria
Siewert Janine
Sigurðsson Einar Freyr
Silva João Ricardo
Silveira Aline
Silveira Natalia
Simi Maria
Simionescu Radu
Simkó Katalin
Simov Kiril
Sitchinava Dmitri
Skachedubova Maria
Smith Aaron
Soares-Bastos Isabela
Sonnenhauser Barbara
Sourov Shafi
Spadine Carolyn
Sprugnoli Rachele
Stamou Vivian
Steingrímsson Steinþór
Stella Antonio
Stephen Abishek
Straka Milan
Strickland Emmett
Strnadová Jana
Suhr Alane
Sulestio Yogi Lesmana
Sulubacak Umut
Suzuki Shingo
Swanson Daniel
Szántó Zsolt
Särg Dage
Símonarson Haukur Barri
Taguchi Chihiro
Taji Dima
Takahashi Yuta
Tamburini Fabio
Tan Mary Ann C.
Tanaka Takaaki
Tanaya Dipta
Tavoni Mirko
Tella Samson
Tellier Isabelle
Testori Marinella
Thomas Guillaume
Tonelli Sara
Torga Liisi
Toska Marsida
Trosterud Trond
Trukhina Anna
Tsarfaty Reut
Tyers Francis
Türk Utku
Uematsu Sumire
Untilov Roman
Urešová Zdeňka
Uria Larraitz
Uszkoreit Hans
Utka Andrius
Vagnoni Elena
Vajjala Sowmya
van der Goot Rob
van Niekerk Daniel
van Noord Gertjan
Vanhove Martine
Varga Viktor
Vedenina Uliana
Venturi Giulia
Villemonte de la Clergerie Eric
Vincze Veronika
Vlasova Natalia
Wakasa Aya
Wallenberg Joel C.
Wallin Lars
Walsh Abigail
Wang Jing Xian
Washington Jonathan North
Wendt Maximilan
Widmer Paul
Wigderson Shira
Wijono Sri Hartati
Wille Vanessa Berwanger
Williams Seyi
Wirén Mats
Wittern Christian
Woldemariam Tsegay
Wong Tak-sum
Wróblewska Alina
Yako Mary
Yamashita Kayo
Yamazaki Naoki
Yan Chunxiao
Yasuoka Koichi
Yavrumyan Marat M.
Yenice Arife Betül
Yıldız Olcay Taner
Yu Zhuoran
Yuliawati Arlisa
Zahra Shorouq
Zeldes Amir
Zeman Daniel
Zhou He
Zhu Hanzhi
Zhuravleva Anna
Ziane Rayan
Ásgeirsdóttir Katla
Çetinoğlu Özlem
Çöltekin Çağrı
Óladóttir Hulda
Östling Robert
Özateş Şaziye Betül
Özgür Arzucan
Öztürk Başaran Balkız
Özçelik Merve
Øvrelid Lilja
Þorsteinsson Vilhjálmur
Þórðarson Sveinbjörn
Čéplö Slavomír
Šimková Mária
Žabokrtský Zdeněk
Publication venue: 'MIT Press - Journals'
Publication date: 15/05/2021
Field of study

Universal Dependencies is a project that seeks to develop cross-linguistically consistent treebank annotation for many languages, with the goal of facilitating multilingual parser development, cross-lingual learning, and parsing research from a language typology perspective. The annotation scheme is based on (universal) Stanford dependencies (de Marneffe et al., 2006, 2008, 2014), Google universal part-of-speech tags (Petrov et al., 2012), and the Interset interlingua for morphosyntactic tagsets (Zeman, 2008). Version 2.8.1 fixes a bug in 2.8 where a portion of the Dutch Alpino treebank was accidentally omitted

LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University